13-11-2023
Base de microdatos del INE:
¿Se concentran las variaciones residenciales durante alguna época concreta del año?
¿Hay alguna dependencia de la cantidad de variaciones residenciales con la edad? Si es así, ¿depende también del sexo?
¿Cómo es la tasa de migración de España con el extranjero?
¿Hay una relación significativa entre el tamaño de los municipios y el número de variaciones que se producen en ellos? ¿Es el éxodo rural un problema actual?
La información está almacenada en el fichero en filas de longitud fija.
Interpretamos la información con el fichero de metadatos.
Comprobar la longitud de las entradas crudas.
Separar por variables.
A continuación, extraemos de los ficheros adicionales la información necesaria para interpretar los códigos de los datos crudos. Generamos dos variables:
dict_list: resumen de metadatos de los diccionarios.$T_MUNI $T_MUNI$sheet [1] "Anexo - Lista de países" $T_MUNI$vars [1] "MUNINAC" "MUNIALTA" "MUNIBAJA" $T_MUNI$is_obs [1] TRUE
dict_info: diccionario completo con todos los códigos y descripciones.Aplicamos los diccionarios y convertimos las variables para al formato adecuado, indicado en los metadatos. Figuran dos tipos: N (numérico) -> numeric y A (alfanumérico) -> factor.
Creamos nuevas variables categóricas: COMUBAJA, COMUALTA, COMUNAC.
Exploramos la información esencial y el tipo de cada variable para confirmar que estén en el formato adecuado empleando la función str().
'data.frame': 2793333 obs. of 19 variables: $ SEXO : Factor w/ 2 levels "Hombre","Mujer": 2 2 1 1 2 1 1 1 2 2 ... $ PROVNAC : Factor w/ 53 levels "Araba/Álava",..: 1 1 1 1 1 1 1 1 1 1 ... $ MUNINAC : Factor w/ 8316 levels "Albania","Austria",..: NA NA NA NA NA NA NA NA NA NA ... $ EDAD : num 61 29 39 25 25 19 15 12 29 11 ... $ MESNAC : num 6 10 2 8 10 7 10 1 10 1 ... $ ANONAC : num 1959 1991 1982 1995 1996 ... $ CNAC : Factor w/ 202 levels "Albania","Austria",..: 7 7 7 7 7 7 7 7 7 7 ... $ PROVALTA: Factor w/ 53 levels "Araba/Álava",..: 1 1 1 1 1 1 1 1 1 1 ... $ MUNIALTA: Factor w/ 8316 levels "Albania","Austria",..: NA NA NA 250 250 250 250 250 250 NA ... $ MESVAR : num 4 8 6 3 12 8 11 12 3 3 ... $ ANOVAR : num 2021 2021 2021 2021 2021 ... $ PROVBAJA: Factor w/ 53 levels "Araba/Álava",..: 1 1 1 1 1 1 1 1 1 1 ... $ MUNIBAJA: Factor w/ 8316 levels "Albania","Austria",..: NA NA NA NA NA NA NA NA NA NA ... $ TAMUALTA: Factor w/ 6 levels "Municipio no capital hasta 10.000 habitantes",..: 1 1 1 6 6 6 6 6 6 1 ... $ TAMUBAJA: Factor w/ 6 levels "Municipio no capital hasta 10.000 habitantes",..: 1 1 1 1 1 1 1 1 1 1 ... $ TAMUNACI: Factor w/ 6 levels "Municipio no capital hasta 10.000 habitantes",..: 1 1 1 1 1 1 1 1 1 1 ... $ COMUBAJA: Factor w/ 20 levels "Andalucía","Aragón",..: 16 16 16 16 16 16 16 16 16 16 ... $ COMUALTA: Factor w/ 20 levels "Andalucía","Aragón",..: 16 16 16 16 16 16 16 16 16 16 ... $ COMUNAC : Factor w/ 20 levels "Andalucía","Aragón",..: 16 16 16 16 16 16 16 16 16 16 ...
Eliminamos las siguientes variables de nuestro conjunto de datos: MESNAC, ANOVAR, MESVAR.
Llamamos a la función summary(). Observamos categorías cuyo significado es equivalente NA: “No Consta”, “(Other)”, “Baja por Caducidad”.
Representamos en un boxplot la variable numérica del dataset EDAD.
Usamos la función fitdistrplus::descdist() para analizar la distribución de las variables numéricas.
Comparamos la variable EDAD con una distribución normal.
Calculamos la variación neta en cada comunidad como la diferencia entre COMUALTA y COMUBAJA.
La variable ANONAC debería tener una gran correlación con la variable EDAD: \(EDAD = 2021 - ANONAC\)
Comparamos las distribuciones por sexo con un test T.
Welch Two Sample t-test
data: mujeres$EDAD and hombres$EDAD
t = 28, df = 3e+06, p-value <2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.599 0.689
sample estimates:
mean of x mean of y
36.1 35.4
Para seguir con el estudio del éxodo rural, podemos representar la relación entre el tamaño de los municipios de alta y de baja en un mosaico. Por limpieza, hemos recodificado las categorías de tamaño de la siguiente manera.
Para complementar este análisis, transformamos nuestros datos a fin de obtener un data.frame con la siguiente estructura:
MUNI: contiene todos los valores únicos de las variables MUNIALTA y MUNIBAJA.
TAMU: valor correspondiente de TAMUALTA / TAMUBAJA.
isCAPITAL: valor lógico que indica si el municipio es capital.
EDAD: media de la edad de los desplazados desde ó hasta cada municipio.
MES: moda del mes en el que se producen los movimientos desde ó hasta cada municipio.
nBAJAS: número de bajas en cada municipio.
nALTAS: número de bajas en cada municipio.
Las variables adicionales nTOTAL y nNETO son la suma y la diferencia de las últimas dos variables listadas.
Se usa el test Chi-cuadrado. Este test supone una hipótesis de partida \(H_0\) (Son independientes) y dependiendo del resultado del test, se acepta o no:
p<0.05: Rechazamos hipótesis p \(\geq\) 0.05: Aceptamos Ho
Lo aplicamos a las variables COMUALTA y COMUBAJA.
Pearson's Chi-squared test
data: tablacontingencia1
X-squared = 1e+07, df = 361, p-value <2e-16
Realizamos un análisis de la variable numérica EDAD de los outliers.
No hay dependencia con la época del año.
La edad es un factor importante en cuanto al cambio de residencia. También está influenciado por el sexo.
La tasa de migración de España con el extranjero en 2021 es positiva y de valor elevado.
Gran cantidad de las variaciones residenciales se producen entre municipios pequeños, pero no suponen un desplazamiento neto elevado
En las ciudades más grandes la tasa neta de variaciones residenciales es mucho más grande.
En conclusión, hemos logrado importar, procesar, interpretar y analizar el dataset propuesto. Para ello, hemos hecho uso de numerosas funciones y librerías que nos han permitido realizar este proyecto de manera eficiente y obtener las conclusiones descritas.